机器学习 – Machine Learning | ML

文章目录

机器学习、人工智能、深度学习是什么关系?

1956 年提出 AI 概念,短短 3 年后(1959),Arthur Samuel 提出机器学习概念:

Field of study that gives computers the ability to learn without being explicitly programmed.

机器学习不是某一具体算法,而是许多算法的统称。深度学习是机器学习的一种,其他常见方法包括决策树、聚类、贝叶斯等。深度学习灵感来自大脑神经元互连,人工神经网络(ANN)即模拟大脑生物结构的算法。

人工智能(AI)包含机器学习(ML),而机器学习包含深度学习(DL),三者关系如下:

面向所有人的机器学习科普大全

什么是机器学习?

机器学习的核心思路是通过算法让计算机从数据中学习并进行预测,而非人工编写规则。理解其本质,有助于更好地应用于工作与生活中。

机器学习的基本思路

机器学习的三步核心流程:

  1. 将现实问题抽象为数学模型,并明确参数含义;
  2. 利用数学方法求解模型,解决实际问题;
  3. 评估模型效果,判断其是否真正解决问题及效果如何。

不是所有问题都可转化为数学模型,只有可数学化的问题才能由 AI 解决。

机器学习的原理

以监督学习为例,类比人类识字过程:

我们展示写有“一、二、三”的卡片,让小朋友学习识别,反复训练后,小朋友学会识字。

在机器学习中:

整个过程即“机器学习”。

监督学习、非监督学习、强化学习

监督学习

在训练集中,所有样本都有正确标签。机器通过学习标签数据,掌握预测方法。

示例:给猫狗照片打标签,训练后可识别新照片中的猫或狗。

【当机器遇到新的小狗照片时就能认出它】


这种通过大量人工打标签来帮助机器学习的方式就是监督学习。这种学习方式效果非常好,但是成本也非常高。

非监督学习

训练集中无标签,机器需从数据中挖掘潜在结构。

示例:将未标注的猫狗照片聚类成两类,但机器并不知哪类为猫、哪类为狗。

通过学习,机器会把这些照片分为2类,一类都是猫的照片,一类都是狗的照片。虽然跟上面的监督学习看上去结果差不多,但是有着本质的差别:
非监督学习中,虽然照片分为了猫和狗,但是机器并不知道哪个是猫,哪个是狗。对于机器来说,相当于分成了 A、B 两类。

强化学习

智能体在环境中通过行为获得回报,以最大化累积回报为目标。

典型场景:游戏。2019 年,AlphaStar 完虐《星际争霸》职业选手 TLO 与 MANA。

【强化学习示例:AlphaStar】

机器学习实操的7个步骤

步骤1:收集数据

我们在超市买来一堆不同种类的啤酒和红酒,然后再买来测量颜色的光谱仪和用于测量酒精度的设备。

接下来,我们把每瓶酒都标记出它的颜色和酒精度,从而形成如下表格:

颜色酒精度种类
6105啤酒
59913红酒
69314红酒

这一阶段的关键是数据的 数量与质量,它们直接决定了后续模型的好坏。

步骤2:数据准备

在这个例子中,数据看似整洁,但现实中常需进行数据清洗、处理缺失值、异常值等操作。

当数据准备完成后,我们将其划分为:训练集(60%)、验证集(20%)、测试集(20%),用于模型训练、调优与评估。

数据准备还可包括标准化、归一化、数据增强等技巧,更多细节可参考《AI 数据集最常见的6大问题(附解决方案)》。

步骤3:选择一个模型

研究人员开发了各种模型,适用于不同数据类型:

在本示例中,我们只有两个特征(颜色、酒精度),可使用简单的线性模型进行预测。

步骤4:训练

训练阶段无需人工干预,机器通过算法自动学习模型参数,类似于“做算术题”。

虽然训练看似重要,但数据质量与模型选择往往比训练过程本身更为关键。

步骤5:评估

训练完成后,使用验证集和测试集评估模型性能。常见指标包括准确率(Accuracy)、召回率(Recall)、F1 值等。 这个过程就不需要人来参与的,机器独立就可以完成,整个过程就好像是在做算术题。因为机器学习的本质就是将问题转化为数学问题,然后解答数学题的过程。

评估结果反映了模型在未见数据上的表现,衡量其在真实场景中的可用性。

步骤6:参数调整

根据评估结果,对模型超参数进行调整(如学习率、正则化强度、树的深度等),以提升模型性能。

参数调整通常结合交叉验证或网格搜索等方法,反复试验找到最佳配置。

步骤7:预测

在前六步的基础上,使用最终模型对新数据进行预测。例如,当我们购买一瓶新酒,只需输入其颜色和酒精度,模型即可判断其是红酒还是啤酒。

示例案例:区分红酒与啤酒

YouTube 视频:《The 7 Steps of Machine Learning》(需科学上网)

15种经典机器学习算法

算法训练方式
线性回归监督学习
逻辑回归监督学习
线性判别分析监督学习
决策树监督学习
朴素贝叶斯监督学习
K邻近监督学习
学习向量量化监督学习
支持向量机监督学习
随机森林监督学习
AdaBoost监督学习
高斯混合模型非监督学习
限制玻尔兹曼机非监督学习
K-means 聚类非监督学习
最大期望算法非监督学习

百度百科+维基百科

更多详情请参考百度百科和维基百科相关条目。

补充资料2:优质扩展阅读

详细了解机器学习,请参考文章《面向所有人的机器学习科普大全》。

发表评论